[汽车之家 新鲜技术解读] 最初驾驶员只能通过物理按键、旋钮对车辆下达指令,别无他法。随着智能网联汽车的发展,“语音助手”已经渐渐成了人机交互的重要方式,而面对未来的自动驾驶时代,语音交互似乎要有更高的地位;即便是现在,小鹏汽车给出的数据显示,用户的智能语音日常使用率在90%以上。怎么把大家爱用的语音系统做到更好?小鹏汽车即将用一次OTA给出答案。
此次OTA的推送只针对小鹏汽车P7(参数丨图片)(参数|询价),P7最早于2020年4月27日上市,截至2021年6月份,该车累计销量已突破3万辆。除了706km的NEDC续航里程比较傲人外,该车的辅助驾驶能力、语音识别系统都有出色的表现,比如小鹏P7的辅助驾驶具备高速NGP能力,其语音系统具备全场景语音能力,此次新语音系统的升级会为其锦上添花。
●新语音系统有了什么变化?
小鹏汽车将于2021年7月份下旬通过OTA向P7全系车型推送此次的新语音系统,此次语音系统最重要的变化点就是语音助手(小P)拥有更加拟人化的音色,同时可实现具有情感变化的声音输出。至于语音助手的反应速度、识别率、功能实现等方面,新系统基本保持和此前一样的水平,并不会有显著优化。
更多精彩视频,尽在汽车之家视频频道
『小鹏汽车全新语音系统官方展示视频』
其实此次语音系统OTA的目的很好理解,就像我们能为小P换装、换头像一样,都是提升人机交互体验、提升情感交流的一种途径。对于传统意义上的语音助手来说,它可能只是用来帮你完成功能操作的机器人,话术死板、音色机械感强、没有情绪变化;且不论语音助手的功能性是否强大,面对一个“纯正的机器人”,你有欲望和它交流吗?那如果语音助手的发音像个真的“小秘书”一样,结果是不是不同?
这次的新语音能做到什么水平呢?首先是音色和音质,音色我们可以通过上面的视频大致有一个了解,这种拟人化水平确实和目前其它汽车语音助手有了很大的区分,与此前的小P对比,也是大大削减了机械感。至于音质,小鹏汽车官方称新声音采用了24K采样技术,实现了高保真音质。
针对音质和音色水平,我们有一个参考,微软MOS(Mean Opinion Score)语音质量评测是一项国际通用的语音质量评测方法,与真人、机器人声音相对比,越大程度接近真实人声就能获得越高分数,满分5分,小鹏汽车的新语音助手获得了4.49分,官方称这是目前MOS评测中得分最高的车载智能语音助手。不过小鹏汽车也提到,这套MOS评测体系也仅是主观评测,可供参考,但从专业角度来说,并不代表100%的准确。
另外,官方分享称,此次升级后的语音助手可以表达情绪变化。现在所有的汽车语音助手都是单纯的将文字转化为语音而已,“语气”平和毫无变化,但“新小P”将具备愉快、温和、亲热、抒情、严肃、不满、生气、害怕、悲伤、冷静等14种强烈情绪的变换能力,可以实现情绪变换、语速变化、抑扬顿挫等;这些会增强语音助手的拟人化属性。不过我预计类似情绪转换的能力可能还是只覆盖部分内容,并不会实现全量的覆盖。
小鹏汽车称目前这套语音系统也具备“针对实际情况来自行调节语速、情绪”的能力,但这个能力离真正上车还有一段距离,仍需要后期不断培养、调整。目前为止,我们只有官方的示例视频来参考,新语音系统的实际体验会如何,我们会在7月下旬为大家带来分享,请期待。
●小鹏汽车怎么实现的这些变化?
小鹏汽车的语音系统此次是使用了“超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合,这是实现新语音的关键因素之一。不过这个方案对于运算量、时延、网络抖动、与应用相结合、声音一致性等问题都有着较高的研发工作量、研发难度,所以如此的技术方案并不是目前车企们的普遍选择。
“在线神经网络引擎+离线拼接引擎”能为语音系统带来什么帮助呢?首先是发音方式、质量,新语音助手的所有发音均由AI合成,现在部分语音设备的拟人化音色可能是通过录音实现的,一旦涉及前期没有进行过录制的内容,呈现出的声音就会有差别,AI合成就避免了这点。另外,常规离线引擎的运算体量不是很大,带来的弊端就是声音质感一般,而小鹏汽车此次用到了云上引擎,巨大体量的运算能力可以支持高质量的声音输出。
在沟通会上,我们也提到,新声音是否会对网络有强需求?一旦在地库或隧道等场景中断网,语音系统会不会降质(声音品质下降,或降级到偏机械的声音)?官方称新语音对网络的依赖较小,如果遇到严重的网络抖动等情况,语音系统会用到离线引擎做保底,那时候的声音确实会被降质,小鹏汽车研发人员表示,在前期测试中,这种情况发生的比例很低,可能也就1%、2%左右。实车表现如何,后续我们也会为大家带来实际体验。
●关于新语音系统的其它好奇
从小P的角色定位、情感需求(要有自信、有亲切感、信任感等)等角度出发,小鹏汽车内部从多种音色中选出了现在的小P。目前语音系统不支持在几种不同音色的拟人化语音中进行切换,因为小鹏汽车认为,很难将每个声音都打磨到非常好,这其中对AI训练量、服务器占用、延迟的缩小等诸多方面都有较高要求,所以“打磨出一款好声音”比“个性化”的优先级更高。
不过作为彩蛋,研发人员称在某些功能、某些情景下,小P还是会有少数不一样的情绪、声音出现,这要靠用户自己挖掘了。
小鹏汽车的研发人员表示,他们内部也考虑过这个问题,但除了技术难度、成本以外,还有小P的定位要思考,小P是个助手?秘书?还是用户的亲人?用户会不会希望一个亲人或朋友的声音出现在语音系统中?针对这些问题,小鹏汽车还在思考中。屏幕前的朋友,你们怎么想?
截至目前,这套语音系统仅会在小鹏汽车P7上全量发布,至于其它车型,还要以日后的实际车型规划为准,目前无法确定。
总结:
还记得小鹏汽车P7语音系统的上一次重大OTA是加入了全场景语音功能,可见即可说,中控屏上的元素你都可以通过语音控制,而且不用记住那些死板的指令语,看见什么念什么就行。
“全场景语音”堪称做到了汽车语音助手中一流的功能实现水平,它进一步完善了语音助手的功能丰富度;而此次更加拟人化、有情绪、有情感的小P则是从人机情感交流的角度大大提升了用户体验。“全场景语音”+“拟人化语音输出”,小P又长大了,希望7月下旬的实车体验能给我们带来惊喜。(文/汽车之家 尤冬青)